社交媒体数据已成为有关现实世界危机事件的及时信息的有用来源。与将社交媒体用于灾难管理有关的主要任务之一是自动识别与危机相关的消息。关于该主题的大多数研究都集中在特定语言中特定类型事件的数据分析上。这限制了概括现有方法的可能性,因为模型不能直接应用于新类型的事件或其他语言。在这项工作中,我们研究了通过利用跨语言和跨域标记数据来自动对与危机事件相关的消息进行分类的任务。我们的目标是利用来自高资源语言的标记数据来对其他(低资源)语言和/或新(以前看不见的)类型的危机情况进行分类。在我们的研究中,我们从文献中合并了一个大型统一数据集,其中包含多个危机事件和语言。我们的经验发现表明,确实有可能利用英语危机事件的数据来对其他语言(例如西班牙语和意大利语)(80.0%的F1得分)对相同类型的事件进行分类。此外,我们在跨语言环境中为跨域任务(80.0%F1得分)取得了良好的性能。总体而言,我们的工作有助于改善数据稀缺问题,这对于多语言危机分类非常重要。特别是,当时间是本质的时候,可以减轻紧急事件中的冷启动情况。
translated by 谷歌翻译